Telegram Group & Telegram Channel
Forwarded from Machinelearning
πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/machinelearning_interview/1745
Create:
Last Update:

πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data

BY Machine learning Interview






Share with your friend now:
tg-me.com/machinelearning_interview/1745

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Mining Work?

Bitcoin mining is the process of adding new transactions to the Bitcoin blockchain. It’s a tough job. People who choose to mine Bitcoin use a process called proof of work, deploying computers in a race to solve mathematical puzzles that verify transactions.To entice miners to keep racing to solve the puzzles and support the overall system, the Bitcoin code rewards miners with new Bitcoins. β€œThis is how new coins are created” and new transactions are added to the blockchain, says Okoro.

Should I buy bitcoin?

β€œTo the extent it is used I fear it’s often for illicit finance. It’s an extremely inefficient way of conducting transactions, and the amount of energy that’s consumed in processing those transactions is staggering,” the former Fed chairwoman said. Yellen’s comments have been cited as a reason for bitcoin’s recent losses. However, Yellen’s assessment of bitcoin as a inefficient medium of exchange is an important point and one that has already been raised in the past by bitcoin bulls. Using a volatile asset in exchange for goods and services makes little sense if the asset can tumble 10% in a day, or surge 80% over the course of a two months as bitcoin has done in 2021, critics argue. To put a finer point on it, over the past 12 months bitcoin has registered 8 corrections, defined as a decline from a recent peak of at least 10% but not more than 20%, and two bear markets, which are defined as falls of 20% or more, according to Dow Jones Market Data.

Machine learning Interview from nl


Telegram Machine learning Interview
FROM USA